Benefiting from masked visual modeling, self-supervised video representation learning has achieved remarkable progress. However, existing methods focus on learning representations from scratch through reconstructing low-level features like raw pixel RGB values. In this paper, we propose masked video distillation (MVD), a simple yet effective two-stage masked feature modeling framework for video representation learning: firstly we pretrain an image (or video) model by recovering low-level features of masked patches, then we use the resulting features as targets for masked feature modeling. For the choice of teacher models, we observe that students taught by video teachers perform better on temporally-heavy video tasks, while image teachers transfer stronger spatial representations for spatially-heavy video tasks. Visualization analysis also indicates different teachers produce different learned patterns for students. Motivated by this observation, to leverage the advantage of different teachers, we design a spatial-temporal co-teaching method for MVD. Specifically, we distill student models from both video teachers and image teachers by masked feature modeling. Extensive experimental results demonstrate that video transformers pretrained with spatial-temporal co-teaching outperform models distilled with a single teacher on a multitude of video datasets. Our MVD with vanilla ViT achieves state-of-the-art performance compared with previous supervised or self-supervised methods on several challenging video downstream tasks. For example, with the ViT-Large model, our MVD achieves 86.4% and 75.9% Top-1 accuracy on Kinetics-400 and Something-Something-v2, outperforming VideoMAE by 1.2% and 1.6% respectively. Code will be available at \url{https://github.com/ruiwang2021/mvd}.
translated by 谷歌翻译
基于变压器的模型已在主要的视频识别基准上取得了最佳性能。与基于CNN的模型相比,这些模型受益于自我发项机制,显示出更强的建模长期依赖性能力。但是,大量的计算开销是由于自我注意力的二次复杂性在大量令牌之上,限制了现有的视频变压器在具有有限资源(例如移动设备)的应用程序中的使用。在本文中,我们将移动格式扩展到视频移动格式,该版本将视频体系结构分解为轻量级的3D-CNN,用于本地上下文建模,并以并行方式将变压器模块用于全局交互建模。为了避免通过计算视频中大量本地补丁之间的自我注意力而产生的重大计算成本,我们建议在变形金刚中使用很少的全球令牌(例如6)将整个视频中的整个视频用于与3D-CNN交换信息 - 注意机制。通过有效的全球时空建模,视频移动形式显着提高了替代轻型基线的视频识别性能,并且在各种视频识别任务上,低FLOP策略的其他有效CNN模型从500m到6G总鞋类胜过其他基于CNN的模型。值得注意的是,视频移动格式是第一个基于变压器的视频模型,它限制了1G失败范围内的计算预算。
translated by 谷歌翻译
人工智能的最新进展在很大程度上受益于更好的神经网络体系结构。这些体系结构是昂贵的反复试验过程的产物。为了简化此过程,我们开发了Archexplorer,这是一种视觉分析方法,用于了解神经体系结构空间并汇总设计原理。我们方法背后的关键思想是通过利用体系结构之间的结构距离来解释建筑空间。我们将成对距离的计算提出解决,以解决全对最短路径问题。为了提高效率,我们将此问题分解为一组最短的路径问题。时间复杂性从O(KN^2n)降低到O(KNN)。根据它们之间的距离,构造在层次上聚集。已经开发了基于圆圈的架构可视化,以传达群集和每个集群中架构的本地社区之间的全球关系。提出了两项​​案例研究和一项分析后,以证明Argsplorer在总结设计原理和选择表现更好的架构方面的有效性。
translated by 谷歌翻译
Vision Transformer(VIT)最近由于其出色的模型功能而引起了计算机视觉的极大关注。但是,大多数流行的VIT模型都有大量参数,从而限制了其在资源有限的设备上的适用性。为了减轻这个问题,我们提出了Tinyvit,这是一个新的小型,有效的小型视觉变压器,并通过我们提议的快速蒸馏框架在大型数据集上预处理。核心思想是将知识从大型模型转移到小型模型,同时使小型模型能够获得大量预处理数据的股息。更具体地说,我们在预训练期间应用蒸馏进行知识转移。大型教师模型的徽标被稀疏并提前存储在磁盘中,以节省内存成本和计算开销。微小的学生变形金刚自动从具有计算和参数约束的大型审计模型中缩小。全面的实验证明了TinyVit的功效。它仅具有21m参数的Imagenet-1k上的前1个精度为84.8%,与在Imagenet-21K上预读的SWIN-B相当,而使用较少的参数则使用了4.2倍。此外,增加图像分辨率,TinyVit可以达到86.5%的精度,仅使用11%参数,比SWIN-L略好。最后但并非最不重要的一点是,我们在各种下游任务上展示了TinyVit的良好转移能力。代码和型号可在https://github.com/microsoft/cream/tree/main/tinyvit上找到。
translated by 谷歌翻译
对象检测器的复杂性过度权衡是资源约束视觉任务的关键问题。先前的作品强调了用有效的骨干实现的检测器。在这项工作中,研究了对检测负责人对提案处理的这种权衡的影响。假设提高的检测效率需要范式转移,朝着不平等的建议处理,将更多的计算分配给良好的建议,而不是贫穷的建议。这可以更好地利用可用的计算预算,从而为同一失败提供了更高的精度。我们将其作为一个学习问题提出,目的是将操作员分配给检测头的建议,以便将总计算成本受到限制,并且精确度最大。关键发现是,可以将这种匹配作为一个函数,该函数将每个提案嵌入到操作员的单速代码中。尽管此功能诱导了复杂的动态网络路由机制,但它可以由简单的MLP实现,并通过现成的对象检测器端到端学习。这种“动态建议处理”(DPP)显示出明确的计算复杂性的明确余量,表现出优于最先进的端到端对象检测器(DETR,稀疏R-CNN)。
translated by 谷歌翻译
利用大规模数据可以在许多计算机视觉任务上引入性能增长。不幸的是,当对象检测中训练多个数据集下的单个模型时,这并没有发生。我们观察到两个主要障碍:分类学差异和边界框注释不一致,这引入了不同数据集中的域间隙,从而阻止我们进行联合培训。在本文中,我们表明,可以通过简单地将对象查询在每个数据集的类别嵌入语言嵌入中来有效地解决这两个挑战。我们设计一个检测中心以根据数据集的不同分布在类别嵌入中动态调整查询。与以前的方法试图学习所有数据集的联合嵌入方式不同,我们的适应方法可以利用语言嵌入作为通用类别的语义中心,同时学习对属于不同数据集的特定类别的语义偏见来处理注释差异并弥补域间隙。这些新颖的改进使我们能够同时在多个数据集上端到端培训单个探测器,以充分利用它们的优势。在多个数据集上进行联合培训的进一步实验证明了对单独的单个微型检测器的显着性能提高。
translated by 谷歌翻译
专家(MOE)的混合物能够有效地扩展视觉变压器。但是,它需要禁止计算资源来训练大型MOE变压器。在本文中,我们提出了专家的残留混合物(RMOE),这是在下游任务(例如分割和检测)上针对MOE视觉变压器的有效训练管道。 RMOE通过上限的MOE培训获得了可比的结果,而仅引入较小的额外培训成本,而不是较低的非MOE训练管道。效率得到了我们的关键观察的支持:MOE变压器的权重可以纳入无独立的核心和输入依赖性残差。与重量核心相比,可以通过更少的计算资源(例如,在下游数据上进行填充)进行有效训练重量。我们表明,与当前的MOE培训管道相比,我们获得了可比的结果,同时节省了30%以上的培训成本。与最先进的非MOE变压器(例如SWIN-T / CVT-13 / SWIN-L)相比,我们在ADE20K分割方面获得+1.1 / 0.9 / 1.0 MIOU的增益,+1.4 / 1.6 / 0.6 / 0.6 AP获得MS-Coco对象检测任务,额外培训成本不到3%。
translated by 谷歌翻译
本文研究了视频变压器的BERT预借鉴。考虑到近期图像变形金刚的伯爵预借鉴成功,这是一个简单但值得学习的延伸。我们介绍了Decouples将视频表示学习学习的BEVT进入空间代表学习和时间动态学习。特别地,BEVT首先在图像数据上执行屏蔽图像建模,然后在视频数据上与屏蔽视频建模联合进行屏蔽图像建模。这种设计具有两个观察的动机:1)在图像数据集上学习的变压器提供了体面的空间前沿,可以缓解视频变压器的学习,这通常是从划痕训练的计算密集型的时间。 2)鉴别的线索,即空间和时间信息,需要在不同的视频中进行正确的预测,由于阶级的阶级和阶级际变化而不同。我们对三个具有挑战性的视频基准进行了广泛的实验,其中BEVT达到了非常有前途的结果。在动力学400上,哪些识别主要依赖于歧视性空间表示,BEVT达到了强大的监督基线的可比结果。在某种东西 - V2和潜水48上,其中包含依靠时间动态的视频,BEVT优于所有替代基准,分别实现了70.6%和86.7%的最新性能。
translated by 谷歌翻译
自动视觉解对我们多样化和开放的世界需要计算机视觉模型,以概括为特定任务的最小定制,类似于人类视力。计算机视觉基础型号培训,培训多样化,大型数据集,可以适应各种下游任务,对该任务来解决现实世界计算机视觉应用而言至关重要。虽然现有的视觉基础模型如剪辑,对齐和吴道2.0主要集中在映射图像和文本表示到跨模型共享表示,我们介绍了一台新的计算机视觉基础模型,佛罗伦萨,扩大粗糙的表示(现场)到精细(对象),从静态(图像)到动态(视频),以及从RGB到多个模态(标题,深度)。通过从Web级图像文本数据中纳入通用视觉语言表示,我们的佛罗伦萨模型可以很容易地适应各种计算机视觉任务,例如分类,检索,对象检测,VQA,图像标题,视频检索和动作识别。此外,佛罗伦萨在许多类型的转移学习中表现出出色的表现:全面采样的微调,线性探测,几次射击传输和用于新颖图像和物体的零拍摄传输。所有这些属性对于我们的视觉基础模型至关重要,以提供通用视觉任务。佛罗伦萨实现了新的最先进的导致44个代表性基准,例如Imagenet-1K零射击分类,最高1精度为83.74,最高5个精度为97.18,62.4地图上的Coco微调, 80.36在VQA上,动力学-600上的87.8。
translated by 谷歌翻译
我们介绍了移动前的Mobilenet和Transformer的平行设计,在两侧桥。该结构利用MobileNet在全局互动下在局部加工和变压器处的优点。而且桥梁可以实现本地和全局特征的双向融合。不同于近期Vision变形金机的作品,移动设备中的变压器包含很少的令牌(例如6或更少的令牌),这些代币被随机初始化以学习全球前沿,导致计算成本低。结合所提出的轻量度跨关注模型桥梁,移动前不仅是计算高效的,而且还有更多的表示力量。它在从25米到500米到500米拖鞋的低浮圈制度以25米到500米的潮流表现出MobileNetv3。例如,移动前者在294米的拖鞋处获得77.9 \%的前1个精度,获得1.3 \%的MobileNetv3,但节省了17 \%的计算。当传输到对象检测时,移动式以前从RetinAnet框架中占MobileNetv3到8.6 AP。此外,我们通过用移动设备替换DETR中的骨干,编码器和解码器来构建高效的端到端探测器,该骨干,其优于12个AP,但节省了52 \%的计算成本和36 \%的参数。
translated by 谷歌翻译